单个对象跟踪旨在在视频序列中找到一个特定目标,鉴于其初始状态。古典轨道仅依靠视觉提示,限制了他们应对挑战的能力,例如外观变化,模棱两可和分心。因此,视觉语言(VL)跟踪已成为一种有前途的方法,并结合了语言描述,以直接提供高级语义并增强跟踪性能。但是,当前的VL跟踪器尚未完全利用VL学习的力量,因为它们受到了限制,例如在很大程度上依靠架子式骨干进行特征提取,无效的VL Fusion设计以及缺乏与VL相关的损失功能。因此,我们提出了一个新颖的跟踪器,该跟踪器逐渐探索了以目标为中心的VL跟踪语义。指定,我们提出了用于VL跟踪的第一个同步学习骨干(SLB),该骨干(SLB)由两个新颖的模式组成:目标增强模块(TEM)和语义意识到的模块(SAM)。这些模块使跟踪器能够感知与目标相关的语义,并以相同的步伐理解视觉和文本模式的文本,从而促进VL特征提取和在不同层次上的融合。此外,我们设计了密集的匹配损失,以进一步增强多模式表示学习。在VL跟踪数据集上进行的广泛实验证明了我们方法的优势和有效性。
主要关键词